2022年4月12日 アトラシアンのクラウド製品で一部の顧客サイトに障害が発生した
はじまり
@AtlassianJapan: クラウド製品の定期メンテナンスの一環として、レガシーデータを削除するスクリプトを実行した結果、一部のお客様のサイトが意図せず無効化される事態が発生いたしました。このインシデントにより多大なご迷惑をお掛けしておりますことお詫び申し上げます。 1/3 このアナウンスは4/12だが、5日前からダウンしているらしい
4/14に続報が出ていた(2022/04/15)
豪Atlassian本社によると影響を受けた顧客企業の45%で12日までに復旧が完了。障害により失われたデータも復元できているとしている。
レガシーデータ削除という定期処理での不具合、なにが原因でインシデント発生したのか…続報待ち 4/13に公式の意訳(2022/04/15)
4月4日(月) 20:12 UTC頃、アトラシアンクラウドをご利用の約400社のお客様が、アトラシアン製品全体を通してサービスの停止を経験されました。
コミュニケーションギャップ:
まず、無効化を依頼したチームと無効化を実行したチームの間にコミュニケーションギャップがあり、無効化の対象となっているアプリのIDを提供する代わりに、アプリの停止を実行するクラウドサイト全体のIDを提供してしまいました。
スクリプトの不具合:
2つ目に、利用したスクリプトには、(リカバリー可能であることが望ましいような)日常のオペレーションで利用する「削除マーク」機能と、コンプライアンス上の理由などから恒久的にデータを削除する必要がある場合などに利用する「恒久的削除」機能が兼ね備えられていました。そのスクリプトが、間違った実行モードで、間違ったIDリストのもとに実行されてしまいました。その結果、約400社のお客様のサイトが不適切に削除されてしまいました。
これは…扱いたいのは削除ではなく状態ってやつだろうか…